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Beschreibung 

Datenverarbeitungsvorrichtung 

5 Die Erfindung betrifft eine Datenverarbeitungsvorrichtung zum 
parallelen Verarbeiten von mindestens zwei unabhangigen Pro- 
zessen (Threads) gemali Patentanspruch 1. 

Der Durchsatz und die Geschwindigkeit einer Datenverarbei- 
10 tungsvorrichtung bzw. eines Prozessors kann bekanntermaflen 
durch Pipelining und eine Erhohung der Taktfrequenz gestei- 
gert werden. 




Durch eine Erhohung des Hardwareauf wandes, d.h. eine Verviel- 



15 fachung von Einheiten des Prozessors, kann ebenfalls die Da- 
tenverarbeitungsrate gesteigert werden, Hierzu sind im we- 
sentlichen zwei Konzepte bekannt, namlich Multiprozessor- 
Architektur und Parallelismus auf der Befehlsebene des Pro- 
zessors (ILP = Instruction Level Parallelism) 

20 

Heutzutage hat sich ILP als Konzept zum parallelen Verarbei- 
ten weitgehend durchgeset zt . Die Multiprozessor-Architektur 
ist dagegen aufgrund der komplizierten Interprozessor- 
Kommunikation weniger erfolgreich. 

25 

^ Ein Beispiel fur das ILP-Konzept ist die VLIW (Very Large In- 
struction Word) -Architektur der digitalen Signalprozessoren 
der C6x-Baureihe der Firma Texas Instruments. Auch die neue 
IA-64-Architektur der Firmen Intel und Hewlett-Packard ba- 

30 siert auf dem ILP-Konzept. In den beiden vorgenannten Archi- 
tekturen wird Parallelismus wahrend des Obersetzens des Pro- 
grammkodes f es tgestellt . Intel bezeichnet ihre IA-64- 
Architektur als "Explicit Parallel Instruction Computing" 
(EPIC) . Beim Ubersetzen werden einige vorbestimmte Flags zum 

35 Erkennen der Parallelitat gesetzt. Dadurch kann der Prozessor 
einfach feststellen, wann parallel auszuf lihrende Instruktio- 
nen im Programmf lull auftreten und entsprechend reagieren. 



GR 00 P 1031 




2 



Ferner ist dies billiger als beispielsweise eine doppelt vor- 
handenen Hardware wie bei einem vollstandigen Parallelismus, 
der in den superskalaren Architekturen der PowerPC- 
Prozessoren eingesetzt wird. Dort wird erst wahrend der Pro- 
grammlauf zeit ein Parallelismus festgestellt, auf den dann 
entsprechend reagiert wird. Der Gewinn aufgrund von ILP ist 
allerdings durch die inharenten Abhangigkeiten der Daten- und 
Steueroperationen begrenzt. Zur Vermeidung solcher Abhangig- 
keiten sind aufwendige Vorarbeiten - beispielsweise eine Be- 
riicksichtigung von Daten- und Steueroperationsabhangigkeiten 
bereits beim Programmieren - erf orderlich, die wiederum den 
gesamten Entwicklungsprozefi verteuern. 

In dem Aufsatz "Simultaneous Multithreading: Maximizing On- 
Chip Parallelism" von D.M. Tullsen, S.J. Eggers, H.M. Levy, 
verof fentlicht auf den Proceedings of 22""* Annular Int. Sym- 
posium for Computer Architectures, 1995 wird zur Maximierung 
des Parallelismus auf Chipebene das Konzept des Simultaneous 
Multithreading vorgeschlagen . Hierzu werden mehrere unabhan- 
gige Prozesse, Bef ehlsf olgen oder Programmf lusse (Threads) an 
die mehrfach vorhandenen Einheiten eines superskalaren Pro- 
zessors in einem Taktzyklus ausgegeben. Ziel des Simultaneous 
Multithreading ist es, unter Ausnutzung von Parallelismus al- 
le Einheiten eines . Prozessors gleichzeitig auszulasten und 
dadurch unter anderem den Einflufi hoher Latenzzeiten, die 
durch einen langsamen Speicher verursacht werden, auf die 
Prozessor-Perf ormance zu verringern . 

Ein Single-Chip-Multiprocessor ist in dem Aufsatz "A single- 
chip Multiprocessor" von L.Hammond, B.A. Nayfeh, K. Olukotun 
beschrieben, der 1997 in IEEE-Computer auf den Seiten 79 bis 
85 verof fentlicht wurde. In diesem Aufsatz wird insbesondere 
auf die Unterschiede zwischen Simultaneous-Multithreading 
(SM) und Chip-Multiprocessors (CMP) hinsichtlich der Perfor- 
mance eingegangen- Ferner wird vorgeschlagen, aufgrund der 
schnell wachsenden Integrationsdichte von integrierten Schal- 
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tungen eine Multiprozessor-Architektur zum Verarbeiten paral- 
leler Prozesse zu verwenden. 

Aufgabe der Erfindung ist es, eine Datenverarbeitungsvorrich- 
5 tung bzw. einen Prozessor vorzuschlagen, die bzw. der minde- 
stens zwei Prozesse (Threads) parallel ausfuhren kann, wobei 
der Hardware-Aufwand verhaltnismaiiig gering ist. 

Diese Aufgabe wird durch eine Datenverarbeitungsvorrichtung 
10 mit den Merkmalen von Patentanspruch 1 gelost, Bevorzugte 

Ausf uhrungsf oritien sind den abhangigen Patentanspriichen ent- 
nehmbar • 

< 

Eine solche Datenverarbeitungsvorrichtung kann beispielsweise 

15 in Telekommunikationsanwendungen als Netzwerkprozessor zur 

Behandlung der Schicht 1 bis 3 des Protokollstapels von LAN- 
Anwendungen, in ATM (Asynchronous Transfer Mode) -Schaltern, 
in IP (Internet Protocol ) -Routern, in Frame-Relays, die ins- 
besondere auf DSL (Digital Subscriber Line) -Verfahren, Ether- 

20 net und Kabel-Modem basieren, vorteilhaft eingesetzt. Insbe- 
sondere bei den vorgenannten Anwendungen treten haufig unab- 
hangige Prozesse zur Verarbeitung verschiedener Aufgaben, 
beispielsweise verschiedener Protokolle, auf. Solche, als 
Multiple Threads bezeichnete, parallel ablaufende Prozesse 

25 sind im Telekommunikationsbereich als grundlegende Anwendun- 
gen entsprechend weit verbreitet. In einer programmierbaren 

\ IP/ATM-Schnittstelle (Internet Protocol/Asynchronous Transfer 
Mode-Input/Output-Processing-Unit) laufen beispielsweise un- 
abhangige Prozesse zur Steuerung verschiedener Datenverbin- 

30 dungen oder zum Steuern getrennter Datenschiebeoperat ionen . 

Der Einsatz der erf indungsgemafien Datenverarbeitungsvorrich- 
tung ist aber nicht auf die vorgenannten Anwendungen be- 
schrankt, sondern kann tiberall, wo parallele Prozesse auftre- 
35 ten, eingesetzt werden. Beispiele hierzu sind Steuer- und Re- 
gelaufgaben oder auch ganz allgemein in Computern, die im Bii- 
ro Oder privat genutzt werden, Sinnvoll ist der Einsatz gera- 
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de dann, wenn allgemein Prozesse parallel mit hoher Perfor- 
mance abgearbeitet werden itiiissen* 

Die Erfindung betrifft eine Datenverarbeitungsvorrichtung zum 
parallelen Verarbeiten von mindestens zwei unabhangigen Pro- 
zessen (Threads) mit 

einem Programmspeicher , in dem mindestens ein kompiliertes 
Programm mit einer Vielzahl N unabhangiger Prozesse abge- 
legt ist, wobei das kompilierte Programm Inf ormationen ti- 
ber Parallelitat und eine Vielzahl von Bundeln mit mehre- 
ren Befehlen eines Prozesses aufweist; 

einer Verzweigungssteuereinheit, die den Programmspeicher 
adressiert ; 

Register zxxra Speichern von Flags und Daten, die in Abhan- 
gigkeit vom ausgefuhrten Prozefi umgeschaltet .werden; und 
einer Programmf luBsteuereinheit , das das Holen von Bundeln 
aus dem Programmspeicher und die Verzweigungssteuereinheit 
und das Ausgeben von Befehlen in Abhangigkeit von in den 
Befehlen enthaltenen und zur Kompilierzeit des Programms 
eingebauten Inf ormationen steuert. 

Die grundlegende Idee der Erfindung liegt darin, daJi die Ab- 
hangigkeiten von Daten und Befehlen in unabhangigen, parallel 
laufenden Prozessen geringer sind als in einem einzelnen Pro- 
grammflufi (Single Sequential Program Flow) zur Parallelverar- 
beitung, Beim Obersetzen bzw. Kompilieren eines Programmes in 
Maschinenkode wird das Programm auf Parallelitat untersucht 
und mit besonderen Flags bzw. Inf ormationen zur Kennzeichnung 
fur Parallelitat versehen. 

Die Architektur der Datenverarbeitungsvorrichtung ist hierzu 
kompatibel zu einer Einzelprogramm-Architektur (Single Thread 
Architecture) . Die parallel auszuf uhrenden Befehle werden in 
einem Taktzyklus aus einem Programmspeicher geholt. Jedem 
einzelnen parallelen Prozeii wird eine Prioritat zugewiesen. 
Nach der Holphase (Fetch-Phase), in der die Datenverarbei- 
tungsvorrichtung tiber eine Verzweigungssteuereinheit (Branch- 
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Control-Unit) Daten und Befehle aus dem Programmspeicher 
holt, wird von einer Programmf lufisteuereinheit (Flow-Control 
Unit) entschieden, welcher Prozefi gemali der vergebenen Prio- 
ritat und der bei der Obersetzung gesetzten Flags bzw. einge 
bauten Inf ormationen uber Parallelitat zuerst ausgefuhrt 
wird. 

Die Datenverarbeitungsvorrichtung weist hierzu Register zur 
Speicherung der Statusvariablen der Parallelprogramme wie 
beispielsweise Programmzahler (Program-Counter) , Registerfi- 
les, ALU (Arithmetic Logic Unit) -Flags, etc. auf. Die Regis- 
ter sind in Abhangigkeit vom zu verarbeitenden Prozeli um- 
schaltbar und dienen im wesentlichen zur Speicherung von Da- 
ten des Prozesses (sogenannter Context-Switch) . 

In einer bevorzugten Aus fuhrungs form der Datenverarbeitungs- 
vorrichtung sind N Bef ehlspuf f er parallel dem Programmspei- 
cher nachgeschaltet und speichern aus diesem ausgelesene Be- 
fehle. 

Vorzugsweise wird ein Bef ehlsausgabeselektor von der Pro- 
grammf lufisteuereinheit derart gesteuert, dafl dieser Befehle 
aus den Bef ehlspuf fern ausliest und N Befehle parallel aus- 
gibt . 

Fur die Parallelverarbeitung konnen zentrale Einheiten wie 
Bef ehlsdekoder (Instruction-Decoder) und Programmzahler in 
der Verzweigungssteuereinheit entsprechend den aktiven paral 
lelen Prozessen vervielf acht, beispielsweise verdoppelt, wer 
den. Hierzu miissen nicht fiir jeden parallelen Prozeii zusatz- 
liche Einheiten vorgesehen werden, sondern nur so viele, wie 
Prozesse gleichzeitig parallel ausgefuhrt werden sollen. 
Weist also beispielsweise ein Programm fiinf verschiedene pa- 
rallele Prozesse auf, sind aber immer nur zwei dieser fiinf 
Prozesse aktiv, so genligt eine Verdoppelung der zentralen 
Einheiten. Im Vergleich zu den aufwendigen ILP-Architekturen 
wird insgesamt weniger Hardware benotigt. Einen besonderen 
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Aufbau zur Verarbeitung der parallelen Prozesse weisen die 
Einheiten zum Holen der Befehle (Bef ehlspuf f er und Befehl- 
sausgabeselektor) und zum Verzweigen (Branch-Control-Unit) 
auf. Die vorgeschlagene Architektur ist sowohl mit als auch 
5 ohne Progranun- und Daten-Cache nutzbar, 

Vorzugsweise sind N Bef ehlsdekoder zum Dekodieren der ausge- 
gebenen Befehle vorgesehen* 

10 Besonders bevorzugt sind mindestens zwei Bef ehlsausf lihrungs- 
einheiten zum Ausfiihren der N dekodierten Befehle vorgesehen, 

i Vorzugsweise mindestens sind ferner mindestens zwei Busse 
* vorgesehen, welche die N Bef ehlsausf iihrungseinheiten mit ei- 
15 nem Speicher flir Daten verbinden. 

Die Befehle eines oder mehrerer Bundel(s) sind besonders be- 
vorzugt parallel ausfuhrbar, 

20 Vorzugsweise gibt die Ver zweigungssteuereinheit einen Adrei5- 
zeiger aus, der ein Biindel adressiert. 

Die Verzweigungssteuereinheit weist in einer weiteren bevor- 
zugten Ausfiihrungsf orm 
25 - einen ersten Multiplexer und einen zweiten Multiplexer, 
einen Addierer und 

- N Programmzahler auf, wobei 

- von der Programmf lufisteuereinheit die Anzahl der Befehle 
in einem Bundel dem Addierer zugeftihrt wird, der einen 

30 AdreBzeiger und die Anzahl der Befehle addiert, 

- Adressen fur Programmspriinge oder Funktionsauf ruf e und ei- 
ne Prozelinummer von der Programf luiisteuerung dem ersten 
Multiplexer zugefuhrt werden, 

- mittels des ersten Multiplexers entweder das Ausgangssig- 
35 nal des Addierers oder die Adressen fur Programmspriinge o- 

der Funktionsauf ruf e in den dem aktiven ProzeB zugeordne- 
ten Programmzahler geschrieben wird bzw. werden. 
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- iiber den zweiten Multiplexer, der uber die zugefiihrte Pro- 
zelinummer gesteuert wird, der Inhalt des dem gerade akti- 
ven Prozeli zugeordneten Programmzahlers als neuer Adreli- 
zeiger ausgegeben wird. 

Der Prograimnf lufisteuereinheit werden bevorzugt uber einen 
Subbus vom Ausgangsbus des Programmspeichers 

- mindestens ein Bit zur Indikation der parallelen Ausfuh- 
rung von Befehlen, und/oder 

- mindestens ein Bit zur Indikation der Lange des folgenden 
Be f ehl sbunde 1 , und/oder 

die Indikation eines oder mehrerer NOPs in den Befehlsbiin- 
deln, und/oder 

die Prioritat der Prozesse der Befehle 
zugef iihrt . 

Ein Prozefl wird vorzugsweise durch Zuweisen einer Prozefinum- 
mer, einer Prioritat und einer Speicheradresse, ab welcher 
der Prozefl im Programmspeicher abgelegt ist, aufgerufen. 

Vorzugsweise dient die Datenverarbeitungsvorrichtung als 
Netzwerkprozessor zuici Verarbeiten von Schicht 1 bis 7 Proto- 
koll-Stapeln in Anwendungen wie LAN, ATM-Schaltern, IP- 
Routern, Frame-Relays, die auf DSL, Ethernet oder Kabel- 
Modems basieren. Insbesondere bei diesen Anwendungen ist eine 
Parallelverarbeitung von wesentlicher Bedeutung, so daiJ die 
erf indungsgemafie Datenverarbeitungsvorrichtung hier besonders 
vorteilhaft eingesetzt werden kann. 

Aus der folgenden Beschreibung eines Ausf uhrungsbeispiels der 
Datenverarbeitungsvorrichtung in Verbindung mit der Zeichnung 
wird die Funktionsweise der Aufbau verdeutlicht , In der 
Zeichnung zeigt 

Figur 1 ein Blockschaltbild der erf indungsgemalien Datenver- 
arbeitungsvorrichtung, 
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Figur 2 ein Blockschaltbild/ das detailliert die Verschal- 
tung des Programmspeichers, der Programmf luBsteuereineit und 
des Bef ehlsausgabeselektors darstellt , 

Figur 3 ein Blockschaltbild mit der Ver zweigungssteuerein- 
heit/ 

Figur 4 ein Zustandsdiagramm zur Erklarung der Arbeitsweise 
der Prograimnf luflsteuereinheit , 



Im folgenden wird die Ver zweigungssteuereinheit als Branch- 
Control-Unit, die Prograinmf lufisteuereinheit als Flow-Control- 
Unit, die Bef ehlsausftihrungseinheit als Execution-Unit und 
der Bef ehlsausgabeselektor als Instruction-Issue-Selector be- 
15 zeichnet . 



In Figur 1 ist das Blockschaltbild der Datenverarbeitungsvor- 
richtung zur parallelen Verarbeitung zweier Prozesse bzw. 
Threads dargestellt. Ein in einem Programmspeicher 12 abge- 

20 legtes Programm wird tiber ieinen Adrefizeiger PCO von einer 

Branch-Control-Unit BCU 11 (Verzweigungssteuereinheit) adres- 
siert. In der BCU 11 sind wenigstens zwei Programmzahler fur 
die verschiedenen Prozesse bzw. Threads vorgesehen, Diese 
Programmzahler werden den gerade aktiven Prozessen zugewie- 

25 sen. Abhangig davon, welcher Prozeli gerade lauft, d.h. von 
der Datenverarbeitungsvorrichtung bearbeitet wird, wird als 
Adrelizeiger PCO der Inhalt des entsprechenden Programmzahlers 
herangezogen . 

30 Dem Programmspeicher 12 sind zwei Bef ehlspuf f er lA 13 und IB 
14 fiir die zwei parallel zu verarbeitenden Prozesse nachge- 
schaltet. Die Bef ehlspuf fer speichern die aus dem Programm- 
speicher ausgelesenen Befehle. 



35 



Eine Flow-Control-Unit 10 (Programmf lufisteuereinheit ) steuert 
sowohl die BCU 11 als auch die Bef ehlspuf fer 13 und 14. Den 
Bef ehlspuf fern 13 und 14 ist ein Instruction-Issue-Selector 
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15 nachgeschaltet, liber den Befehle aus den Bef ehlspuf f ern 13 
und 14 auf zwei Bef ehlsdekoder 16 und 17 gemultiplext werden. 

Den Befehlsdekodern 16 und 17 sind Register 18 zur Speiche- 
5 rung von Zero- Carry-, Overflow-Flags der parallel laufenden 
Prozesse vorgesehen. Die Register 18 weisen wenigstens zwei 
Registerf iles zum Speicher von Daten und von Zustandeh der . 
aktiven Prozesse auf. 

10 Dem Register 18 wiederum sind zwei Execution Units EXl 19 und 
EX2 20 (Bef ehlsausflihrungseinheiten) nachgeschaltet, Diese 
beiden Einheiten dienen zum Ausfuhren der Befehle. Hierzu 
sind beide Einheiten EXl 19 und EX2 20 jeweils mit zwei Bus- 
sen BUSl 21 und BUS2 22 verbunden, uber die auf einen Spei- 
15 Cher 23 zugegriffen wird, in dem Daten abgelegt sind. Der 

Speicher 23 ist vorzugsweise ein Schreib/Lese-Speicher (RAM) • 

Im folgenden wird die Funktionsweise der oben beschriebenen 
Anordnung erlautert : 

20 

Der Programmkode ist in fester Lange kodiert. Die Programme 
der Prozesse sind nicht notwendigerweise getrennt, sondern 
konnen auch in einem Programm vereint sein. Der Startpunkt 
eines Prozesses bzw. Threads entspricht einem Sprung, kombi- 
25 niert mi.t einer zusatzlichen Funktion zum Setzen einer Pro- 
zeii- bzw. Thread-Nummer . Das Format eines solchen Startpunk- 
tes lautet wie folgt: 



0 



30 



35 



RUN Thread_nr Priority Jump_Adr 

Der Prozefi wird also durch den Befehl RUN aufgerufen, wobei 
noch eine Thread-Nummer Thread_nr, eine Prioritat Priority 
und die Sprungadresse Jump_Adr, an der der Prozefikode im Pro- 
grammspeicher steht, angegeben bzw. zugewiesen werden. 

Die Befehle sind immer in Bundeln (Bundles) mit einem oder 
zwei Befehlen gespeichert. Zum Zeitpunkt der Kompilation wird 
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der ILP derart untersucht, dafi die Bundel mit Befehlen paral- 
lel ausfuhrbar sind. Das bedeutet, dali wahrend der Kompilati- 
on des oder der Programme (s) untersucht wird, welche Befehle 
weitgehend unabhangig voneinander sind und demnach parallel 
5 ausfuhrbar sind. Zwei unabhangige Befehle werden dann in ein 
Bundel "verpackt". Ferner konnen auch die Befehle verschiede- 
ner Bundel parallel ausfuhrbar sein. Es sind somit auf jeden 
Fall die Befehle eines Bundels parallel ausfuhrbar als auch 
gegebenenf alls die Befehle verschiedener Bundel bzw, ver- 

10 schiedener Prozesse. Jedes Bundel weist ein Flag auf, das die 
Lange der folgenden Bundels angibt. In Abhangigkeit von die- 
sem Flag wird der Adrelizeiger berechnet. Bei der Adressierung 

W des Programmspeichers 12 uber den AdreiJzeiger PCO weist die- 

r ser eine Bitbreite auf, mit der die maximale Lange eines Be- 

15 fehlsbundels adressierbar ist. 

Das Holen der Befehle aus dem Programmspeicher (Instruction 
Fetch) erfolgt f olgendermalJen: der Programmspeicher 12 wird 
durch den AdreiJzeiger PCO adressiert (der Adrelizeiger PCO 

20 zeigt hierzu auf die Anf angsadresse eines Bundels) ; dann wird 
ein Bef ehlsbundel in einen der Bef ehlspuf f er 13 bzw. 14 gele- 
sen. AnschlieBend wird ein weiteres Bef ehlsbundel ausgelesen 
und in den anderen der Bef ehlspuf fer 13 bzw. 14 geschrieben. 
Das zweite Bef ehlsbundel gehort dabei zu einem anderen Prozeii 

25 als das erste Bef ehlsbundel , Somit konnen zwei aktive Prozes- 
se bearbeitet werden. Insgesamt konnen mehr als zwei Prozesse 

I " vorhanden sein, aber der Prozessor kann in diesem Ausfiih- 
rungsbeispiel nur zwei aktive Prozesse parallel ausftihren, 
Durch Vervielf achen der entsprechenden Einheiten Befehlspuf- 

30 fer, Bef ehlsdekoder und Execution-Unit konnen auch mehr als 
zwei Prozesse aktiv sein, d.h. parallel verarbeitet werden. 
Bei jedem Holzyklus werden jedenfalls zwei Bef ehlsbundel aus 
dem Programmspeicher 12 in die Bef ehlspuf fer 13 und 14 uber- 
tragen . 

35 

Uber den Instruction-Issue-Selector 15, der Multiplexer-Logik 
umfalit, werden aus den Bef ehlspuf fern 13 und 14 Befehle der 
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Bef ehlsbundel oder NOPs (No Operations) ausgegeben. Die Be- 
fehle Oder NOPs warden den Bef ehlsdekodern 16 und 17 zu Deko- 
dierung zugefuhrt* Es konnen entweder zwei Befehle aus einem 
Bef ehlsbundel, d.h* zwei Befehle aus dem Bef ehlspuf f er 13 o- 
5 der 14, oder jeweils ein Befehl aus dem Bef ehlspuf fer 13 und 
14 uber den Instruction-Issue-Selector 15 ausgewahlt werden. 
Wenn die vom Instruction-Issue-Selector 15 ausgegebenen Be- 
fehle NOPs sind, kann der Prozessor in einen Power-Down-Modus 
gehen . 

10 

Die Ausgabe und Auswahl der Befehle aus den Bef ehlspuf fern 13 
und 14 sowie den Instruction-Issue-Selector 15 wird von der 
Iff Flow-Control-Unit 10 gesteuert. Dies wird anhand Figur 2 er- 
* klart. Die aus dem Programmspeicher 12 ausgelesenen Befehls- 
15 bundel werden uber einen Befehlsbus an die Bef ehlspuf fer 13 

und 14 gefiihrt. Uber einen Bef ehlssubbus 25 wird folgende In- 
formationen aus dem Bef ehlsbundel der Flow-Control-Unit 10 
zugef iihrt : 

20 - Ein Bit zur Indikation der parallelen Ausfiihrung von Be- 

fehlen oder ein Bit zur Indikation der Lange des folgenden 
Bef ehlsbundel . Im Falle von Programmkode mit fester Lange 
ist allerdings ein Indikation der Lange nicht ndtig. 
Die Indikation eines oder mehrerer NOPs in den Befehlsbun- 

25 deln, wobei ein NOP durch einen anderen Befehl des anderen 




Prozesses ersetzt werden kann. 

Den aktuelle Prozeii, d.h. die Nummer der Prozesses uber 



einen Thread-Bus 28. 
- Die Prioritat der beiden Prozesse. 

30 

Die Flow-Control-Unit 10 steuert uber einen Fetch_Ctr-Bus 26 
die Bef ehlspuf fer 13 und 14 und uber einen Issue_Select-Bus 
27 den Instruction-Issue-Selector 15 an. Die internen Zustan- 
de der Flow-Control-Unit 10 weisen die Anzahl der verbleiben- 
35 den Befehle in den Bef ehlspuf fer 13 und 14 der beiden Prozes- 
se. An Ausgangssignalen gibt die Flow-Control-Unit 10 folgen- 
de aus : 
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- Ein Signal zur Inkrementierung des Programmzahlers . Das 
Signal ist 0 fur ein Bef ehlsbtindel mit einem Befehl und 2 
fiir ein Bef ehlsbundel mit zwei Befehlen, 
5 - Uber den Fetch_Ctr-Bus 2 6 ein Fetch_Ctr-Signal zum Freige- 
ben der Bef ehlspuf f er 13 und 14, 

Uber den Issue_Select-Bus 27 ein Issue_Select-Signal zur 
Steuerung des Instruction-Issue-Selectors 15, 

10 Die dem Instruction-Issue-Selector 15 nachgeschalteten Be- 
fehlsdekoder 16 und 17 dekodieren die zugefuhrten Befehle, 
Die ProzelJnummer und die Prioritat des jeweiligen Prozesses 

^ werden im Register 18 gespeichert. 

15 In Figur 3 ist der Aufbau der Branch-Control-Unit 11 darge- 
stellt- Die Branch-Control-Unit 11 weist einen Addierer 30 
auf, der den Adreflzeiger PCO und ein uber einen Instruction- 
Bundle-Bus 35 zugefuhrtes Signal M addiert. Das Signal M ist 
entweder 1 fiir ein Bef ehlsbundel mit einem Befehl oder 2 mit 

20 einem Bef ehlsbundel mit zwei Befehlen. Dadurch wird der aktu- 
elle Programmzahlerwert entweder urn 1 oder 2 inkrementiert , 
also abhangig davon, ob ein Bef ehlsbundel mit einem oder zwei 
Befehlen gelesen wird. Der Ausgangswert des Addierers 30 wird 
einem ersten Multiplexer 31 zugefuhrt. Der erste Multiplexer 

25 31 schaltet entweder das vom Addierer 30 zugefuhrte Signal 

Oder uber einen Br_Ctr-Bus 36 zugefuhrte Signale zum Steuern 

1 von Sprungen und Funktionsauf ruf en in einen von zwei Pro- 

grammzahlern 32 und 33. In welchen Programmzahler geschrieben 
wird, hangt von der uber einen Thread-Bus 37 zugefuhrten Pro- 

30 zefi-Nummer TNr ab. Jedem der beiden aktiven Prozesse ist ein 
Programmzahler zugeordnet. Wird also beispielsweise ein Be- 
fehlsbiindel mit zwei Befehlen des Prozesses Nummer 4 aus dem 
Programmspeicher gelesen, so ist das Signal M gleich 2 und 
der erste Multiplexer schreibt einen Wert PCO+2 in den Pro- 

35 grammzahler PCI 33, der dem Prozeli Nummer 4 zugewiesen ist. 
Ober einen zweiten Multiplexer 34 wird einer der beiden Pro- 
grammzahler 32 und 33 als Adreflzeiger PCO ausgegeben. Wieder- 
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uiti steuert die Prozelinummer , welcher der beiden Programmzah- 
ler ausgegeben wird. 

In Figur 4 ist das Zustandsdiagramm der Flow-Control-Unit 10 
dargestellt. Die Flow-Control-Unit weist vier verschiedene 
Zustande 38 bis 41 auf, die sich jeweils durch verschiedene 
Werte A und B auszeichnen. Die Werte A und B geben an, wie- 
viele Befehle sich noch in dem Bef ehlspiif f er lA 13 bzw. IB 14 
befinden. Bei dem dargestellten Zustandsdiagramm ist die Pri- 
oritat von Prozeii A grolier als die Prioritat von Prozeli B. 

Bei jedem Zustandsubergang ist in dem Diagramm angegeben, 
welche Aktionen durchgefuhrt werden, also Ausgabe eines oder 
zwei der Werte A und/oder B aus den Bef ehlspuf fern lA 13 
und/oder IB 14 durch den Instruction-Issue-Selector 15 oder 
Laden bzw» Nachladen von einen oder zwei Befehlen aus dem 
Programmspeicher in die Bef ehlspuf fer lA 13 und/oder IB 14. 
Es konnen auch NOPs vom Instruction-Issue-Selector 15 ausge- 
geben werden. 2A und 2B bedeutet, dafl zwei Werte aus dem Be- 
fehlspuffer lA bzw. IB ausgegeben werden oder in diesen gela- 
den werden, entsprechend bedeutet lA und IB die Ausgabe oder 
das (Nach) Laden nur eines Wertes. 
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Patentanspruche 

1. Datenverarbeitungsvorrichtung zum parallelen Verarbeiten 
von mindestens zwei unabhangigen Prozessen (Threads) , mit 

einem Programmspeicher (12), in dem mindestens ein kompi- 
liertes Programm mit einer Vielzahl N unabhangiger Prozes 
se abgelegt ist, wobei das kompilierte Programm Informati 
onen uber Parallelitat und eine Vielzahl von Bundeln mit 
mehreren Befehlen eines Prozesses aufweist; 
einer Verzweigungssteuereinheit (11), die den Programm- 
speicher (12) adressiert; 

Register (18) zum Speichern von Flags und Daten, die in 
Abhangigkeit vom ausgeftihrten Prozeli umgeschaltet werden; 
einer Programmf luiis teuereinheit (10), das das Holen von 
Bundeln aus dem Programmspeicher (12) und die Verzwei- 
gungssteuereinheit (11) und das Ausgeben von Befehlen in 
Abhangigkeit von in den Befehlen enthaltenen und zur Kom- 
pilierzeit des Programms eingebauten Inf ormationen steu- 
ert . 

2. Datenverarbeitungsvorrichtung nach Anspruch 1, d a - 
durch gekennzeichnet, dali N Bef ehlspuf f er (13, 
14) parallel dem Programmspeicher (12) nachgeschaltet sind 
und aus diesem ausgelesene Befehle speichern. 

3. Datenverarbeitungsvorrichtung nach einem der Anspruche 1 
Oder 2, dadurch gekennzeichnet, dafl ein Be- 
f ehlsausgabeselektor (15) von der Programmf lulisteuereinheit 
(10) derart gesteuert wird, daii dieser Befehle aus den Be- 
fehlspuffern (13, 14) ausliest und N Befehle parallel aus- 
gibt • 

4. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, daB N 
Bef ehlsdekoder (16, 17) zum Dekodieren der ausgegebenen Be- 
fehle vorgesehen sind. 
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5. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, dafi 
mindestens zwei Bef ehlsausf uhrungseinheiten (19, 20) zuiti Aus- 
fuhren der N dekodierten Befehle vorgesehen ist. 

6. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, dafi 
mindestens zwei Busse (21, 22) vorgesehen sind, welche die N 
Bef ehlsausfuhrungseinheiten (19, 20) mit einem Speicher (23) 
fur Daten verbinden* 

7. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, dafi 
die Befehle eines oder mehrerer Bundel(s) parallel ausfuhrbar 
sind . 

8. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, dafi 
die Verzweigungssteuereinheit (11) einen Adrefizeiger (PCO) 
ausgibt, der ein Bundel adressiert. 

9. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, dafi 
die Verzweigungssteuereinheit (11) 

einen ersten Multiplexer (31) und einen zweiten Multiple- 
xer (34), 

einen Addierer (30) und 

- N Programmzahler (32, 33) aufweist, und 

von der Programmf lufisteuereinheit (10) die Anzahl (35) der 
Befehle in einem Bundel dem Addierer (30) zugefuhrt wird, 
der einen Adrefizeiger (PCO) und die Anzahl (35) der Befeh- 
le addiert, 

- Adressen (36) fiir Programmspriinge oder Funktionsauf ruf e 
und eine Prozefinummer (37) von der Prograunf lufis teuerung 
(10) dem ersten Multiplexer (31) zugefuhrt werden, 

- mittels des ersten Multiplexers (31) entweder das Aus- 
gangssignal des Addierers (30) oder die Adressen (36) fur 
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Programmsprunge oder Funktionsauf ruf e in den dem aktiven 
ProzeB zugeordneten Programmzahler geschrieben wird bzw. 
werden, 

- liber den zweiten Multiplexer (34), der uber die zugefUhrte 
5 Prozeflnumraer (37) gesteuert wird, der Inhalt des dem gera- 

de aktiven Prozeli zugeordneten Programmzahlers (32, 33) 
als neuer Adrefizeiger (PCO) ausgegeben wird. 

10. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
10 den Ansprtiche, dadurch gekennzeichnet, daii 

der Programmf lulisteuereinheit (10) liber einen Subbus (25) vom 
Ausgangsbus (24) des Programmspeichers (12) 

- luindestens ein Bit zur Indikation der parallelen Ausflih- 
P rung von Befehlen, und/oder 

15 - mindestens ein Bit zur Indikation der Lange des folgenden 
Bef ehlsblindel , und/oder 

die Indikation eines oder mehrerer NOPs in den Befehlsblin- 
deln, und/oder 

die Prioritat der Prozesse der Befehle 
2 0 zugefiihrt werden. 

11. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Ansprtiche, dadurch gekennzeichnet, dafi 
ein Prozefi durch Zuweisen einer Prozelinummer , einer Prioritat 

25 und einer Speicheradresse, ab welcher der Prozeli im Programm- 
speicher abgelegt ist, aufgerufen wird. 

12. Datenverarbeitungsvorrichtung nach einem der vorhergehen- 
den Anspruche, dadurch gekennzeichnet, dali 

30 die Datenverarbeitungsvorrichtung als Netzwerkprozessor zum 
Verarbeiten von Schicht 1 bis 7 Protokoll-Stapeln in Anwen- 
dungen wie LAN, ATM-Schaltern, IP-Routern, Frame-Relays, die 
auf DSL, Ethernet oder Kabel-Modems basieren, dient . 
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Zusammenf assung 

Datenverarbeitungsvorrichtung 

5 Die Erfindung betrifft eine Datenverarbeitungsvorrichtung, 
insbesondere einen Netzwerkprozessor zum Verarbeiten von 
Schicht 1 bis 7 Protokoll-Stapeln in Anwendungen wie LAN, 
ATM-Schaltern, IP-Routern, Frame-Relays, die auf DSL, Ether- 
net Oder Kabel-Modeius basieren, der entsprechend einer Anzahl 
10 von parallel zu verarbeitenden Prozessen Bef ehlspuf f er , Be- 
fehlsdekoder und Bef ehlsausf tihrungseinheiten aufweist, wobei 
im wesentlichen eine Programmf luflsteuereinheit die Parallel- 
verarbeitung steuert. 

15 (Figur 1) 
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